史丹佛大學
a few seconds ago

#史丹佛大學
#Onyx晶片
#稀疏運算
#AI硬體
#能耗優化
商傳媒|林昭衡/綜合外電報導
摘要

隨著大型人工智慧模型規模持續擴大,其龐大能耗與運算時間成為挑戰。史丹佛大學研發出Onyx硬體加速器,透過稀疏運算技術,大幅提升AI處理效率並降低能耗,為永續發展的AI硬體指明新方向。

隨著人工智慧(AI)大型語言模型(LLM)的規模持續擴大,運算所需的龐大能耗與處理時間,已成為產業發展的關鍵挑戰,同時也加劇了碳足跡問題。為此,全球研究團隊正積極探尋解決方案,其中「稀疏性」運算被視為一條可兼顧高效能與節能的新路徑。

稀疏性是指在許多AI模型的參數中,有大部分數值為零或極接近零,在不影響精確度的前提下可被視為零。這項特性為運算帶來顯著的節省機會:透過跳過對零值的加法或乘法運算,以及僅儲存非零參數,能有效減少記憶體佔用與運算量。據《IEEE Spectrum》報導,兩年前Cerebras公司已在Meta的Llama 7B模型上展示,高達七到八成的參數可設為零而不損失精確度,這項概念亦適用於ChatGPT和Claude等模型。

然而,現有的多核心中央處理器(CPU)與繪圖處理器(GPU)等主流硬體,並未能充分利用稀疏性優勢。儘管蘋果(Apple)的A14和M1晶片透過改良預取器,提升了稀疏運算中的間接查詢速度,但通用型處理器在設計上仍存在固有開銷。為全面發揮稀疏性潛力,AI硬體、底層韌體和應用軟體都需重新架構。

史丹佛大學的研究團隊研發出一款名為Onyx的硬體加速器,專為稀疏性運算從零開始設計。Onyx是首款可程式化加速器,能同時支援稀疏與密集(非稀疏)運算,大幅加速兩領域的關鍵操作。該團隊指出,Onyx晶片在處理稀疏工作負載時,平均能耗僅為一般CPU的七十分之一,運算速度則快上八倍。若以「能量延遲積(Energy-Delay Product, EDP)」衡量,Onyx相較於使用專用稀疏程式庫的Intel Xeon CPU,效能提升高達565倍。

其他企業也致力於加速稀疏機器學習的硬體開發。例如Cerebras的Wafer Scale Engine,在LLM上展現高達七成的稀疏度,但主要支援權重稀疏性。Meta的MTIA v2加速器則聲稱稀疏運算效能較MTIA v1提升七倍,但目前僅針對矩陣乘法公布支援資訊。相較之下,Onyx能夠處理結構化與非結構化的稀疏性,並具備可程式化彈性,使其能適用於多種操作。

史丹佛大學團隊表示,Onyx架構是將稀疏與密集運算整合於單一晶片上的重要一步,同時也開啟了新的演算法思維。此類稀疏加速硬體不僅能提升AI的效能與能源效率,更將激勵研究人員探索具備突破潛力的新演算法。該團隊目前正著手開發基於Onyx的下一代晶片,以支援更廣泛的數學運算,並優化晶片上密集與稀疏加速器架構的整合,期盼能有效管理AI日漸增長的運算時間、成本及環境影響。